大家对生成视觉领域有着这样的认知:先有图像生成、视频生成,再有3D生成。
大家对生成视觉领域有着这样的认知:先有图像生成、视频生成,再有3D生成。
3D场景理解让人形机器人「看得见」周身场景,使汽车自动驾驶功能能够实时感知行驶过程中可能出现的情形,从而做出更加智能化的行为和反应。而这一切需要大量3D场景的详细标注,从而急剧提升时间成本和资源投入。
在三维生成建模的研究领域,现行的两大类 3D 表示方法要么基于拟合能力不足的隐式解码器,要么缺乏清晰定义的空间结构难以与主流的 3D 扩散技术融合。来自中科大、清华和微软亚洲研究院的研究人员提出了 GaussianCube,这是一种具有强大拟合能力的显式结构化三维表示,并且可以无缝应用于目前主流的 3D 扩散模型中。
使用大模型合成的数据,就能显著提升3D生成能力?
天津大学与南京大学联合团队在CVPR 2024上发表了LPSNet项目,提出了一种端到端的无透镜成像下的3D人体姿态和形状估计框架,通过多尺度无透镜特征解码器和双头辅助监督机制,直接从编码后的无透镜成像数据中提取特征并提高姿态估计的准确度。
基于人工智能的数字内容生成,即 AIGC 在二维图像生成领域取得了很大的成功,但在三维生成方面仍存在挑战。智能化生成三维模型在 AR/VR、工业设计、建筑设计和游戏影视等方面都有应用价值,现有的智能化三维生成方法已经可以生成高质量的三维模型,但如何对生成结果进行精确控制,并对真实模型或生成的模型进行细节的修改,从而让用户自由定制高质量的三维模型仍然是一个待解决的问题。
未来人与人的交流,难道是这个样?
谁能想到,某天和你聊天的那个人竟是一个AI。来自TUM等研究人员提出了一种全新算法NPGA,能够生成高保真3D头像,表情逼真到让你怀疑自己的眼睛。
最少只需1个3D样例,即可生成3D主题乐园。
高斯溅射(Gaussian Splatting)在新视角合成领域掀起了一轮革命性浪潮,取代上一代技术神经辐射场(NeRF)成为学界业界顶流